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В статье приведен метод решения сг 0$$-[апецаее-функциональности в задаче автоматического распознавания 
семантически эквивалентных фрагментов текстовых документов. Данный метод основывается 
на использовании знаний о естественном языке, затрагивая все его уровни анализа: от лексического 
до семантического включительно. 
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заимствованный фрагмент. 


ТБе агае ргезеп{5 Фе зоаНоп оЁ фе сгозз-[апоиазе КисйопаШу ш Фе ргоМет оЁ Фе амютайс 14епиЯсайоп 
оЁ Ше зетапйсаПу едшуа]еп( Кастет оЁ Ше {ех{ доситлеп 5. Тне зоаноп геег$ 0 фе изше оЁКпо\еаэе оЁ 
Пе пабга] 1аполасе аё а] ]еуе!$ оЁ Из апа|уз1з: Яо Фе 1ех1са1 1еуе! пр ю Фе зетапйс опе шсазуе. 

Кеу мог45: пабога| Тапопазе, ащотайс {ех{ ргосезз те, а4оре4 йавтлепе. 


У стати наведено метод виритення сгоз$-апеиаое-функщональност! в задач! автоматичного розшзнавання 
семантично екв1валентних фрагментв текстових документ. Даний метод трунтуеться на використанн! 
знань о природыйй мов, зачшаючи вс! Й рвн! аналву: в1д лексичного до семантичного включно. 

Ключов! слова: природна мова, автоматична обробка текст1в, запозичений фрагмент. 


Введение 


Информационные системы, оперирующие большими объемами текстовых доку- 
ментов произвольной предметной области и успешно решающие различные прикладные 
задачи, становятся все более востребованными как предприятиями и организациями, 
так и отдельными пользователями. При этом обработка информации, представленной 
в документах на различных языках, в том числе с целью обнаружения семантически 
эквивалентных фрагментов, не является тривиальной и достаточно актуальна. 
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Постановка задачи 


Обозначенная в названии статьи задача рассматривается здесь в контексте одного 
важного приложения -— автоматического распознавания плагиата, под которым обычно 
понимают умышленное присвоение авторства на чужое произведение литературы, 
науки, искусства, изобретение или рационализаторское предложение (полностью 
или частично). Случаи плагиата могут быть и непреднамеренными, например, вследствие 
сильного внешнего информационного влияния, которое может проявляться в использо- 
вании идей или характерного способа их выражения, а также несоблюдения общепри- 
нятых правил цитирования, если речь идет об информации, представленной в текстовой 
форме [1]. Таким образом, реализацию указанного приложения целесообразно рас- 
сматривать в виде последовательности следующих двух этапов: 

— распознавание эквивалентных, в определенном смысле, фрагментов у заданно- 
го текстового документа и текстовых документов из заданной базы данных и доступ- 
ных Пиеге-источников; 

— анализ, как правило с привлечением экспертов, эквивалентных фрагментов 
на предмет их заимствования, т.е. на предмет наличия плагиата. 

Если говорить об эквивалентности текстовых фрагментов, то, как показал анализ 
задачи, речь, в этом смысле, должна идти, конечно же, о полностью совпадающих 
фрагментах, а также о тех, которые совпадают с точностью до некоторых критериев, 
определяемых преднамеренными и достаточно нетрудоёмкими действиями (проце- 
дурами), предпринимаемыми авторами текстов с целью перевода решения задачи 
распознавания плагиата из плоскости использования достаточно простых показателей 
для сравнения текстовых фрагментов в плоскость использования показателей, полу- 
чаемых на основе серьёзного лингвистического анализа текста, т.е. с целью затруд- 
нения решения задачи. К таким процедурам можно отнести следующие: 

— перестановка слов, допускаемая с точки зрения грамматики языка; 


— (не) использование неинформативных слов, например, вводных конструкций; 


— использование синонимов слов для отдельных частей речи (существительных, 
глаголов, предлогов и т.д.), синонимов залогов и различных синонимических конструк- 
ций на уровне именных групп, объектно-параметрических отношений (например, 
«нагреть А» = «повысить температуру А») и т.п.; 


— использование парафраза, т.е. пересказа фрагмента текста, сохраняющего его 
основной смысл. 

Заметим, что последняя из перечисленных процедур основывается, в том числе, 
и на множестве предшествующих. Что касается основного смысла фрагмента текста, 
то его можно, например, представить в виде совокупности тех знаний, которые там 
представлены, рассматриваемых в соответствии с тремя их основными типами [2], [3]: 
объектами/классами объектов, фактами (семантическими отношениями типа С-А-О, 
где: С — субъект, А — акция, О — объект) и правилами (причинно-следственными отноше- 
ниями между самими фактами), отображающими закономерности внешнего мира/пред- 
метной области. 

Очевидно, что для рассматриваемой задачи, учитывая, что причинно-следственные 
отношения оперируют фактами, а факты — объектами, можно ограничиться только 
вторым типом знаний. Таким образом, мы будем говорить, что два текстовых фрагмен- 
та являются семантически эквивалентными, если их множества фактов совпадают с точ- 
ностью до синонимии составляющих их компонентов. И речь, таким образом, идет 
об автоматическом распознавании в текстовых документах именно таких фрагментов. 
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Наличие в сети Интернет и полнотекстовых базах данных огромного числа тексто- 
вых документов, представленных на различных языках, существенно усложняет каче- 
ственное решение задачи автоматического обнаружения воспроизведенных фрагментов 
текстовых документов. Так как требует функциональности сгоз$-[апочасе, что в свою 
чередь, подразумевает, во-первых, обнаружение в анализируемом, т.е. входном, до- 
кументе фрагментов из текстовых документов, представленных как на языке этого 
документа, так и на других языках из рассматриваемого их множества, и, во-вторых, 
необходимость представления результатов на языке пользователя системы, обеспечи- 
вающей решение указанной задачи. 


Решение задачи в одноязычной информационной среде 


В предыдущем разделе отмечалась актуальность распознавания полностью совпа- 
дающих текстовых фрагментов — эта задача была нами решена [1]. 

Решение же задачи в обобщенной постановке, т.е. распознавание семантически 
эквивалентных текстовых фрагментов, очевидно, потребует наличия лингвистического 
процессора (ЛПР), осуществляющего автоматический анализ текста на всех уровнях 
глубины языка — от лексического до семантического. В качестве такого процессора 
может быть взят известный многоязычный ЛПР [2]. 

Текст, практически в любом из используемых ныне форматов (РОС, РПЕ, КТЕ, 
НТМЕГ, ХМЕ, ТХТ и др.), поступает на его вход и далее осуществляется преформа- 
тирование, лексический (распознавание границ слов и предложений), лексико-грам- 
матический, синтаксический и семантический анализ текста. 

На последнем этапе распознаются, в частности, так называемые расширенные 
факты, т.е. семантические отношения типа ЗАО (рис. 1, данный процесс иллюстри- 
руется на примере английского языка). 


Название Определение 

компонента 

Зи] ест субъект, концептвыполняющий 
действие (\уа{ег 1$ Веа{е4Ъу Йге) 

АсНоп акция (действие), выполняемая субъектом 
над объектом (Фе \огКег; БиИ@а Вопзе) 

ОБес{ объект, концепт-получатель действия 
(Поизе 1$ Ба Бу Фе сотрапу) 

А4еснуе атрибут действия — прилагательное (Фе 
шуепбйоп 15 ейаепте Фе \хаег Бесотез 
Вой 


Ргероз@юоп обстоятельство действия или объекта — 
предлог, обычно в паре с непрямым 
объектом (®е 1атр 1$ р1асе4 оп Ше {а е) 


шатес! непрямой объект действия, часто в парес 
ОБес+ предлогом (®е 1атр 1$ р!асе4 оп пе {аШе) 
Адуега1 атрибут действия с функцией наречия (Фе 


оБ]ес11$ $10 у тоШеа; Ше 4туег паз 
по аги фе %еегшо \’Пее! п зисп а 
шаппег) 


Рисунок 1 — Структура семантического отношения ЗАО 
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Понятно, что при распознавании ЗАО в конкретных предложениях текстового 
документа определенные компоненты отношения могут быть пустыми, например, в ЗАО 
из предложения «Ве |атпр 15 р!асе4 оп е {ае» компоненты Зибесё, Афеснуе и Адуела1 
не заполняются в силу структуры исходного предложения (рис. 2). 


Название Определение 
компонента 

ЗиБ]ес{ - 
АсНоп рЛасе 
ОБест 1атр 
А4еспуе - 
Ргерозюп оп 
шатес"ОБест {а[е 
Адуегыа1 - 


Рисунок 2 — Пример неполного семантического отношения ЗАО из предложения 
«Тве 1атр 1$ расе оп Фе {ае» 


Очевидно, что знаниям типа «факт» в тексте могут соответствовать разнообразные 
синтаксические структуры, выражающие, однако, равное либо близкое смысловое 
содержание. Так, например, факт «Ёге-Неа{-\уаег», распознаваемый во фразе «Ёге Веа{$ 
угег», может быть также представлен другими синтаксическими формами: 

— \уабег 15 Вежеа Ъу ге; 

— Нге 15 а/е 1ю Беаё \уатег; 

— изше оЁЯге аПо\у$ тю Беа{ ууаег; 


— Веайте оРууайег 1$ ассотрИзВеа уу Бер оЁ ге. 

Дополняя лингвистическую базу знаний указанного ЛПР словарями вводных 
конструкций и синонимов для отдельных частей речи, определяемых компонентным 
составом расширенного факта, а его функциональность — соответствующими проце- 
дурами поиска по этим словарям, мы тем самым, очевидно, обеспечиваем решение 
поставленной задачи. 

Что касается собственно алгоритма распознавания семантически эквивалентных 
текстовых фрагментов, то его принципиальная схема аналогична представленному в [1] 
алгоритму распознавания заимствованных предложений при условии, что текстовый 
документ рассматривается не как цепочка слов, а как цепочка фактов. При этом могут 
быть оговорены условия не только полного, но и частичного совпадения таких цепочек 
как по проценту одинаковых фактов от их общего количества в цепочке, так и по компо- 
нентному составу сравниваемых фактов, а также наполнению одинаковых компонентов. 

Ниже в качестве примера приводится один из результатов распознавания двух 
семантически эквивалентных текстовых фрагментов, полученных экспериментальной 
версией системы. 

Фрагмент 1. 

...АЛазег 15 а 4еу1се Гай ети По гоиэВ а ргосез$ оРорйса| атрИЙсайоп Базеа 
оп Фе зитиае4 епл15 оп оРрБоюпв. А Тазег сопз155 оРа гаш тедпит ап орИса| сауйу 
Юг ргоуАте Фе орйса| Еее4Баск. ТНе Пой {Вай 15 етше4 Бу Фе 1азег 15 пофае Юг из 
Ысй Деотее оЁ зрайа[ ап4 {етрога| сопегепсе... 

Фрагмент 2. 

...А демсе ай 15 аЫе ю ети По Бу теап$ оРа ргосез$ о# у1зпа| атрИЙйсайоп 
Фа 15 Базед оп Ше рВоюп$ епл15510п 1$ саПе4 1азег. А гаш тедпит ап4 орйса| сауйу ю 
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ргом1ае орйса1 ГееЧасК аге тат раг$ о Тазег. Те По етщеа Бу е 1азег 15 Комп Юг 
Ыср дестее оР{етрегайге ап4 зрайа1 совегепсе... 

Приведенные текстовые фрагменты состоят из семантически эквивалентных 
предложений. Так, например, после обработки с помощью ЛПР первых предложений 
приведенных фрагментов, в них будут выделены соответственно следующие факты: 

Е!) Лазег — Бе — деусе 

Е |азег — ети — Нор — гоией — ргосезз оЁ ор@са! атпрИйсаНоп 

Е) Х - Базе — ргосезз оЁ орйса! атрИйсайоп — оп — зЧиищаей епиззюп оЁ 
рвопоп$ 

Е!) 1азег — Бе — деусе 

Е>^) |азег — ети — Ной — Бу шеаиз оЁ— ргосезз оЁувиа! атрИйсаноп 

Е) Х — Базе — ргосезз оРувиа! ашрИйсаноп — оп — рвоюп$ еп $101 

Здесь выделены синонимичные компоненты соответствующих фактов: «гоией» 
уЕ>? и «Бу шеапз ов› у Е) и т.д. Непрямые объекты «зниайе4 епиззюп оЁрпоюпз» 
(Ез)) и «рВоюп$ еп115$10п» (Ез2)) признаны синонимичными (условно) в силу принятых 
в данной версии критериев синонимии именных групп (допускается не учет атрибута). 
Фиксирование «1азег» в качестве субъекта фактов Е›), Е! 2 и Е›®) оказалось возможным 
благодаря наличию в используемом ЛПР функциональности разрешения анафоры. 
Знаком «Х» в приведенных фактах помечен «пустой» субъект. 


Решение задачи в многоязычной информационной среде 


Решение задачи автоматического распознавания семантически эквивалентных 
фрагментов текстовых документов в многоязычной информационной среде требует, 
очевидно, организации, во-первых, распознавания языка текстового документа и, во- 
вторых, машинного перевода (МП) текстов во множестве Г заданных языков, =}, 


1=1,и. Причём, в последнем случае речь может идти о разработке / использовании либо 


множества систем МП с языка [; на язык Г, 1, =. и, {= ] (случай, когда все языки 
из их множества Г являются «функционально равными»), либо множества систем МП с Г; 
на Г, 1< }<и - фиксированное, 1=1и, 1= / (случай, когда один из языков из мно- 
жества /, а именно Г, является «функционально базовым»). Такой подход к организации 
машинного перевода текстов имеет место, если существуют многоязычные системы МП, 
осуществляющие качественный перевод тестовых документов во множестве заданных 
языков. Причем, выбор «функционально базового» языка позволяет оптимизировать 
решение задачи, как по трудоемкости, так и по скорости: в случае, если язык входного 
документа совпадает с языком, выбранным в качестве базового, то документ подвергается 
немедленной обработке, иначе — предварительно переводится на базовый язык систе- 
мой МП. В этой постановке задача была нами решена для текстов на русском и бело- 
русском языках [1], но разработанные при этом алгоритмы пригодны для многих языков. 
Как показал проведенный анализ, на данный момент существующие системы МП 
не обеспечивают приемлемых результатов работы для решения указанной задачи в общем 
случае, в связи с чем предлагается идея использования языка-посредника -— «интер- 
лингвы», который будет являться «функционально базовым языком». Его основу могут 
составить уникальные семантические понятия — концепты и факты, которые в прин- 
ципе от языка не зависят. Что касается формы его представления, то наиболее удачной, 
по нашему мнению, является структура многоязычной лексической БД ММоа\М, 
включающей множество двуязычных словарей, достаточных для обеспечения качествен- 
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ного перевода фактов, полученных с помощью указанного выше ЛПР. ММоа\\М, 
аналогичная по своей структуре \огаМеи [4], описывает концепты внешнего мира в форме 
пронумерованных понятий (синсетов), выраженных набором синонимичных слов 
и словосочетаний на всех языках из множества Г, а также различными семантическими 
отношениями между концептами («общее-частное», «часть-целое», «группа-эле- 
мент» и т.д.) [5]. 

Таким образом, в силу вышеизложенного имеет место следующая схема системы 
автоматического распознавания воспроизведенных фрагментов текстовых документов, 
реализующей сго$5-!апоиазе-функциональность, представленная на рис. 3. 

В соответствии с представленной структурно-функциональной схемой для каждого 
документа, будь то документ из Полнотекстовой базы данных, содержащей множество 
эталонных документов, базы данных релевантных Интернет-доступных документов, 
полученных в результате Интернет-поиска, или входной документ, заданный пользовате- 
лем, определяется язык его представления в Подсистеме определения языка текстового 
документа. Затем документ обрабатывается в Подсистеме автоматического индексирования 
документов, в которой для каждого документа, строится его поисковый образ (ПОД) — 
множество фактов, полученных с помощью ЛПР, и, используя возможности элемента 
лингвистической базы знаний (ЛБЗ) — лексической БД ММоа\\\, в свою очередь позво- 
ляющей осуществлять его перевод на ЕЯ из поддерживаемого множества, наряду с ори- 
гинальным документом сохраняется в поисковый индекс — Проиндексированные входной 
и из полнотекстовой БД документы или Проиндексированные Интернет-доступные 
документы, если документ был получен в результате Интернет-поиска по ключевым 
словам, выделенным из анализируемых документов. Далее подключается функциональ- 
ность Подсистемы поиска релевантных документов, которая реализуется путём срав- 
нения их ПОД-ов. 
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Рисунок 3 — Структурно-функциональная схема системы 
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На следующем шаге входной документ и все полученные для него релевантные 
документы поступают в Подсистему распознавания эквивалентности фрагментов доку- 
ментов, которое осуществляется с учётом явного и указанного ранее (например, по ком- 
понентному составу сравниваемых фактов) типа неявного заимствований. Эквива- 
лентные с точки зрения критериев системы фрагменты — Воспроизведенные фрагмен- 
ты — с указанием их источников оформляются в виде Отчёта и поступают пользователю. 
Его взаимодействие с системой осуществляется посредством интерфейса, который под- 
держивает ввод документов и просмотр результатов поиска заимствований, приведен- 
ных на языке источника. 

Функциональность Подсистемы определения языка текстового документа, Под- 
системы автоматического индексирования документов, Подсистемы распознавания 
эквивалентности фрагментов документов обеспечивается ЛПР и его ЛЬЗ, причём в той 
мере, в какой это необходимо для качественного решения задачи, то есть, как отме- 
чалось ранее, с учётом семантического уровня языков. 


Выводы 


Представленный в работе метод решения сго5$-!апеиазе-функциональности в за- 
даче автоматического распознавания семантически эквивалентных фрагментов тексто- 
вых документов основан на использовании языка-посредника, обеспечиваемого спе- 
циальной многоязычной лексической базой данных и существенно расширяющего 
возможности существующих инструментально-программных средств анализа текстовых 
документов на предмет выявления в них случаев заимствования без ссылок на авторов. 
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ВЕЗОМЕ 
У. В. Ктарйлт 
Сто55-щапзиазе Рипспопай т ше Рго Мет 


ор йе Ашотанс 14епийсапоп ор !е 5етаписаПу 


Едийлет! Егаэтепах ор фе Тех! Роситепт5 

ТБе агисе ргезет а тео4 Юг Ше сго$$-|апопазе-ВшсНопаШу ш Фе ргоет оЁ 
Фе ашюотайс гесори оп оЁ Фе зетаписаПу еашуаеп Настпеп оЁ Те {ехё доситетв, 
зн 1$ соп$1Аеге4 ше сощех{ оЁ опе ппроцапё аррИсайоп — ащютайс р|алазт 
14депийсаНоп. [ пирЦез, аё Ягзё, Фе деесноп ш фе шриё доситепЕ 1е Насте оЁ пе 
{ех{ доситеп ргеземе ш Бо Ше 1апопазе ое досштеп{ ап4 Ше оег |апопиасез оЁ 
Феш соп$1Аеге4 зе, ап зесоп Ту, Ше пее4 {о ргезеп Ше гезиН$ ш Ше |апоцазе оЁ Ше 
иег оЁ {1е зузет ай епзигез Ше зоаНоп оЁ Те рго ет тепйопе4 афоуе. Те изасе оЁ 
Фе пцегтефае 1апоцасе — «ищегтеца», уШсв сомашз Фе итаче зетапйс поНоп$ — 
сопсер5 ап сё, Ус 4ое$ по! дереп4 оп Ше |апоиазе ш ргисф!е, ап4 ргоу14еа уу 
зресла1 ти Итета1 ]ех1са] даёаБазе аге зисоезе4. 

ТБо$, бе те#о4 ргеземе4 ш Фе агас1е 1$ Базе оп Ве изазе оЁ Ме Кпо\е4ее оЁ 
Фе пабага| [апоиасе ап ге{егз о Ше апа|уз1$ оЁ {Ве 1ехё ш аП дер 1еуе|5 оЁ 1апгчаее: 
Пот |ех1са| ир 0 зетапис опе шсазуе. [ уетсапИу ежепа$ 1е сара Шиез ог Фе 
ех1$Ипо зоЙу\уаге 10015 оРапа[у$15 ое {ех{ доситеп{$ уу Ше ригрозе оРтесоспюп ш 
Фет оЁ Фе адорНоп$ ууйпоцЕ сие Фе а огз. 


Статья поступила в редакцию 10.04.2013. 
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